30 Mayo, 2021
Compilar via Jupiter Notebooks em: https://pchiroque.github.io/NLP/;
Desenvolveremos un proyecto completo;
Referencia: (Bird, Klein, and Loper 2009)
Que es Procesamiento de Lenguaje Natural? dentro de Ciencia de Datos;
Pasos: Mineria de dados / Exploración Análisis / Técnicas de PLN
Que es Lenguaje Natural?
Idioma Ruso (es un leguaje natural)
Idioma Frances (es un leguaje natural)
Lenguaje Español (es un leguaje natural)
Lenguaje Python (no es un leguaje natural)
Subárea da Inteligencia Artificial (IA)
Estudia las capacidades/limitaciones de uma máquina em entender a linguagem dos seres humanos.
Objetivo del PLN é fornecer aos computadores a capacidade de entender e compor textos (Audios).
Para modelar el lenguaje y hacer posible que la maquina entienda
Procesamientos:
Normalización: Tokenización
Transformación de letras mayúsculas para minúsculas
Retirar remoção de caracteres especiais
Retirar tags HTML/Javascript/CSS, otros
Programar: Usando datos PLN via : pandas, sklearn, re nltk, TextBlob, gensim
Matemática y estadística: Mineración, exploración y análisis de datos via:
Corpus, diseñar la matriz de terminos
Contar palabras
Análisis de sentimientos
Modelamiento
Generación de textos
Comunicación diseñar un dominio: Visualización, extracción de conclusiones.
Pregunta inicial;
Colectar los datos y hacer mineración de datos;
Explorar y analisar datos (EDA);
Aplicar técnicas;
Compartir resultados.
text = \(text.lower()\): convertir em minuscula,
text = \(re.sub('\[.*?\]', '', text)\) remove text in square brackets
text = \(re.sub('[%s]' % re.escape(string.punctuation), '', text)\) : remove punctuation
text = \(re.sub('\w*\d\w*', '', text)\): remueve alfa-numericas caracteres.
El texto en pequeñas partes Tokenized (quebrar el texto).
En python scikit-learn’s CountVectorizer,
Una columna por palabra
Con CountVectorizer podemos remover por ejemplo: ‘a’, ‘the’, etc.
Exploratory_Data_Analysis.ipynb
Topico_Modelos.ipynb
Bird, Steven, Ewan Klein, and E. Loper. 2009. “Natural Language Processing with Python.” In.